การเพิ่มประสิทธิภาพแบบเว้า: หลักการของการหาค่าต่ำสุดโดยไม่มีข้อจำกัด

เราเปลี่ยนจากความเป็นจริงเชิงทฤษฎีของค่าต่ำสุดไปสู่เครื่องจักรอัลกอริธึมของการเพิ่มประสิทธิภาพ วัตถุประสงค์หลักของเราคือ ลดค่า $f(x)$ (9.1) โดยที่ $f: \mathbf{R}^n \to \mathbf{R}$ เป็นฟังก์ชันเว้าและมีอนุพันธ์อันดับสองต่อเนื่อง ด้วยเหตุที่ $f$ มีอนุพันธ์และเป็นเว้า ข้อกำหนดจำเป็นและเพียงพอสำหรับจุด $x^*$ ที่จะเป็นค่าต่ำสุดคือ $\nabla f(x^*) = 0$.

กรอบการทำงานทางอัลกอริธึม

โซลูชันเชิงตัวเลขสร้าง ลำดับที่ลดค่าลง: ลำดับของจุด $x^{(0)}, x^{(1)}, \dots \in \text{dom } f$ โดยที่ $f(x^{(k)}) \to p^*$ เมื่อ $k \to \infty$ แต่ละขั้นตอนอัปเดตตำแหน่งผ่าน $x^{(k+1)} = x^{(k)} + t^{(k)}\Delta x^{(k)}$ โดยที่ $\Delta x$ เป็นทิศทางที่ลดลง

การเริ่มต้นและการประยุกต์ใช้งาน

วิธีการที่กล่าวไว้ในบทนี้ต้องการจุดเริ่มต้นที่เหมาะสม $x^{(0)}$ จุดเริ่มต้นต้องอยู่ใน $\text{dom } f$ และนอกจากนี้ เซตย่อยระดับ $S = \{x \in \text{dom } f \mid f(x) \le f(x^{(0)})\}$ ต้องเป็นเซตปิด ซึ่งช่วยให้มั่นใจได้ว่าลำดับจะคงอยู่ในบริเวณที่มีพฤติกรรมดี ที่เมทริกซ์ฮีสเซียนให้ข้อมูลที่มีประโยชน์

ทิศทางการลดลง

ทิศทางที่ง่ายที่สุดคือ $\Delta x = -\nabla f(x)$. อย่างไรก็ตาม ประสิทธิภาพมักต้องคำนึงถึงรูปทรงเรขาคณิตที่แตกต่างกันผ่าน ทิศทางการลดลงที่ดีที่สุด:

มาตรฐานกำลังสอง: $\|z\|_P = (z^T P z)^{1/2} = \|P^{1/2}z\|_2$.
$L_\infty$ นอร์ม: $\Delta x_{\text{sd}} = \Delta x_{\text{nsd}} \|\nabla f(x)\|_\infty = - \frac{\partial f(x)}{\partial x_i} e_i$ (การลดลงตามพิกัด)

โมเดลลำดับที่สองและเขตเชื่อมั่น

วิธีนิวตันใช้การประมาณการเทย์เลอร์ลำดับที่สอง: $$\hat{f}(x+v) = f(x) + \nabla f(x)^T v + \frac{1}{2} v^T \nabla^2 f(x) v$$ พาราโบล่าจะถูกลดค่าต่ำสุดเมื่อ $v = \Delta x_{nt}$ (ก้าวของนิวตัน) เราจะนิยาม เขตเชื่อมั่น: เซต $\{v \mid \|v\|_2 \le \gamma\}$. พารามิเตอร์ $\gamma$ สะท้อนความมั่นใจของเราในโมเดลลำดับที่สอง เมื่อโมเดลมีความแม่นยำ เราจะหาทิศทางผ่าน $v = L^{-T}w = -L^{-T}L^{-1}P^T g$ ในระบบที่เคเคที

🎯 หลักการพื้นฐานของการรวมตัว

ประสิทธิภาพวัดได้จากการที่ข้อผิดพลาด $f(x^{(k)}) - p^*$ หายไปอย่างรวดเร็ว สำหรับฟังก์ชันเว้าอย่างเข้มงวด ข้อผิดพลาด $f(x^{(k)}) - p^*$ จะรวมตัวเข้าสู่ศูนย์อย่างน้อยเร็วเท่ากับลำดับเรขาคณิต ในบริบทของวิธีเชิงตัวเลขแบบวนซ้ำ นี่เรียกว่าการรวมตัวแบบเส้นตรง

ขอบเขตความไม่เหมาะสม: $p^* \geq f(x) + \lambda(x) + \log(1 - \lambda(x))$ ถูกต้องหาก $\lambda(x) < 1$
ผลรวมความสมมาตรเอง: หาก $f_1, f_2$ เป็นความสมมาตรเอง แล้ว $f_1 + f_2$ ก็จะเป็นความสมมาตรเอง
ความเบาบางของเมทริกซ์ฮีสเซียน: ประสิทธิภาพจะเพิ่มขึ้นหาก เงื่อนไขโครงสร้างแถบของเมทริกซ์ฮีสเซียน: $\nabla^2 f(x)_{ij} = 0$ เมื่อ $|i-j| > k$ เป็นจริง

คำถามที่ 1

เงื่อนไขใดที่จำเป็นและเพียงพอสำหรับ $x^*$ เพื่อเป็นจุดต่ำสุดทั่วโลกของฟังก์ชันเว้าที่มีอนุพันธ์?

$∇² f(x*) ≽ 0$

$∇ f(x*) = 0$

เซตย่อยระดับ $S$ เป็นเซตปิด

$f(x*) = p^*$

คำถามที่ 2

วิธีนิวตันจะเป็นอย่างไรหากเราใช้การแปลงพิกัด (ความไม่แปรผันแบบแอฟฟิน)?

เส้นทางสู่ค่าต่ำสุดเปลี่ยนแปลงอย่างมาก

อัลกอริธึมกลายเป็นการรวมตัวแบบเส้นตรงเพียงอย่างเดียว

วิธีนี้ไม่ขึ้นกับการแปลงพิกัดเชิงเส้น

เมทริกซ์ฮีสเซียนกลายเป็นเอกลักษณ์

คำถามที่ 3

เมื่อใดที่ขอบเขตความไม่เหมาะสม $p^* \geq f(x) + \lambda(x) + \log(1 - \lambda(x))$ จะต้องมีความถูกต้อง?

เฉพาะเมื่อ $\lambda(x) < 1$

สำหรับทุก $x \in \text{dom } f$

เฉพาะสำหรับฟังก์ชันกำลังสอง

เมื่อเมทริกซ์ฮีสเซียนเป็นแนวทแยง

คำถามที่ 4

หาก $f_1$ และ $f_2$ เป็นความสมมาตรเอง ข้อใดต่อไปนี้ก็เป็นความสมมาตรเองด้วย?

$f_1 \cdot f_2$

$f_1 / f_2$

$f_1 + f_2$

$f_1 - f_2$

คำถามที่ 5

ลักษณะเฉพาะของอัตราการรวมตัวแบบเส้นตรงในวิธีการวนซ้ำคืออะไร?

ข้อผิดพลาดถึงศูนย์ในจำนวนก้าวที่แน่นอน $n$ ขั้นตอน

ข้อผิดพลาดรวมตัวเข้าสู่ศูนย์อย่างน้อยเร็วเท่ากับลำดับเรขาคณิต

เมทริกซ์ฮีสเซียนเป็นค่าคงที่

ขนาดก้าว $t$ เสมอเป็น 1

ความท้าทาย: การหาค่าต่ำสุดของฟังก์ชันเศษส่วนและฟังก์ชันไม่เว้า

เทคนิคเชิงวิเคราะห์สำหรับปัญหาที่ไม่มีข้อจำกัด

ในการเพิ่มประสิทธิภาพแบบไม่มีข้อจำกัด เราพบโครงสร้างที่ดูซับซ้อน แต่สามารถแก้ไขได้ด้วยหลักการมาตรฐาน พิจารณาสองกรณีเฉพาะ: ฟังก์ชันกำลังสองที่ไม่เว้า และฟังก์ชันเศษส่วนกำลังสองเหนือเชิงเส้น

คำถามที่ 1

พิจารณา $f(x) = (1/2)x^T Px + q^T x + r$ แสดงว่าหาก $P$ ไม่เป็นเมทริกซ์บวกกึ่งแน่นอน ($P \nsucceq 0$) ปัญหานี้จะไม่มีขอบล่าง

คำตอบแบบโมเดล:
หาก $P \nsucceq 0$ จะมีเวกเตอร์เฉพาะ $v$ ที่ทำให้ $Pv = λv$ โดยที่ $λ < 0$ ให้ $x = tv$ โดยที่ $t$ เป็นจำนวนสเกลาร์
แทนค่าลงในวัตถุประสงค์: $f(tv) = (1/2)t^2(v^T Pv) + t(q^T v) + r = (1/2)λt^2 ||v||^2 + t(q^T v) + r$
เมื่อ $t \to ∞$ พจน์ $t^2$ จะมีผลกระทบมากที่สุด เนื่องจาก $λ < 0$ นิพจน์ $(1/2)λt^2 ||v||^2 \to -∞$ ดังนั้น ฟังก์ชันจะไม่มีขอบล่าง

คำถามที่ 2

ลดค่า $f(x) = \frac{\|Ax - b\|_2^2}{c^T x + d}$ บน $\text{dom} f = \{x \mid c^T x + d > 0\}$ อนุมานเงื่อนไขสำหรับจุดต่ำสุด

คำตอบแบบโมเดล:
เพื่อลดค่า $f(x)$ เราตั้งอนุพันธ์ $∇f(x) = 0$ ให้ $u = Ax - b$ และ $v = c^T x + d$ ฟังก์ชันคือ $f = u^T u / v$
ใช้กฎการหาร: $∇f(x) = \frac{2 A^T(Ax - b)(c^T x + d) - \|Ax - b\|_2^2 c}{(c^T x + d)^2} = 0$
นี่นำไปสู่สมการสถานะสมดุล: $2(c^T x + d)A^T(Ax - b) = \|Ax - b\|_2^2 c$ ซึ่งสามารถแก้ได้โดยลดลงเป็นระบบสมการเชิงเส้นหรือการค้นหาพารามิเตอร์สเกลาร์เดียวที่แทนค่าของวัตถุประสงค์